1. Identificação | |
Tipo de Referência | Tese ou Dissertação (Thesis) |
Site | mtc-m21d.sid.inpe.br |
Código do Detentor | isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S |
Identificador | 8JMKD3MGP3W34T/4AQ4DCB |
Repositório | sid.inpe.br/mtc-m21d/2024/02.22.13.00 |
Última Atualização | 2024:05.08.14.07.17 (UTC) simone |
Repositório de Metadados | sid.inpe.br/mtc-m21d/2024/02.22.13.00.24 |
Última Atualização dos Metadados | 2024:05.08.15.13.45 (UTC) simone |
Chave Secundária | INPE-18825-TDI/3419 |
Chave de Citação | Santana:2024:AlBaAp |
Título | Algoritmo baseado no aprendizado por reforço para o controle do apontamento de satélites utilizando redes neurais |
Título Alternativo | Reinforcement learning based algorithm for the control of satellite pointing using neural networks |
Curso | CMC-ETES-DIPGR-INPE-MCTI-GOV-BR |
Ano | 2024 |
Data | 2024-02-20 |
Data de Acesso | 08 maio 2024 |
Tipo da Tese | Dissertação (Mestrado em Mecânica Espacial e Controle) |
Tipo Secundário | TDI |
Número de Páginas | 155 |
Número de Arquivos | 2 |
Tamanho | 10897 KiB |
|
2. Contextualização | |
Autor | Santana, Gabriel Goes Aragão |
Banca | Rocco, Evandro Marconi (presidente) Chagas, Ronan Arraes Jardim (orientador) Garcia, Roberta Veloso |
Endereço de e-Mail | gabrielgoesas@gmai.com |
Universidade | Instituto Nacional de Pesquisas Espaciais (INPE) |
Cidade | São José dos Campos |
Histórico (UTC) | 2024-02-23 21:05:31 :: gabriel.santana@inpe.br -> pubtc@inpe.br :: 2024-02-26 12:22:17 :: pubtc@inpe.br -> gabriel.santana@inpe.br :: 2024-03-06 13:53:50 :: gabriel.santana@inpe.br -> administrator :: 2024-03-11 12:00:08 :: administrator -> pubtc@inpe.br :: 2024-03-11 12:00:50 :: pubtc@inpe.br -> gabriel.santana@inpe.br :: 2024-03-22 12:42:53 :: gabriel.santana@inpe.br -> pubtc@inpe.br :: 2024-05-08 15:12:37 :: pubtc@inpe.br -> simone :: 2024-05-08 15:13:17 :: simone :: -> 2024 2024-05-08 15:13:45 :: simone -> :: 2024 |
|
3. Conteúdo e estrutura | |
É a matriz ou uma cópia? | é a matriz |
Estágio do Conteúdo | concluido |
Transferível | 1 |
Palavras-Chave | controle de atitude controle inteligente aprendizado por reforço redes neurais linguagem Julia attitude control intelligent control reinforcement learning neural networks Julia language |
Resumo | O presente trabalho aplica o paradigma do Aprendizado por Reforço (Reinforcement Learning, RL), um subcampo de Machine Learning, ao problema de controle de atitude de um satélite. Nessa formulação, um agente interage com um ambiente, modificando seu estado ao realizar ações e recebendo uma recompensa - um sinal escalar - de forma a punir ou recompensar suas decisões. Por um processo de tentativa e erro, o agente deve encontrar a forma ótima de agir. Em anos recentes, desenvolvimentos inspirados em novas ideias deram origem a uma variedade de algoritmos, capazes de serem aplicados em uma grande quantidade de ambientes desafiadores. Em sua essência, esses algoritmos utilizam-se de redes neurais artificias (RNAs) para representar suas funções de interesse. Dessa forma, surge a possibilidade de aplicar as técnicas do RL aos problemas de controle tradicional, como o controle de atitude. Dominar essas ferramentas traria ganhos práticos, à medida que permitiria um ajuste automático dos parâmetros do controlador, o controle em situações muito diferentes do cenário nominal e a possibilidade de realização de missões mais desafiadoras e que requeiram uma menor interferência humana. Três algoritmos modernos do RL foram selecionados: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed DDPG) e SAC (Soft Actor-Critic). Tanto a implementação desses algoritmos quanto a dinâmica de atitude do satélite foram escritas na linguagem Julia. Um cenário em particular, no qual a matriz de momento do inércia do satélite é variável, também é simulado. De maneira a comparar a solução do RL, o controlador proporcional-derivativo (PD) do satélite Amazonia-1 serve como referência. Considerações práticas acerca da estrutura da rede, em termos de função de ativação, topologia e número de camadas são discutidas como forma de inserir conhecimento prévio e acelerar o aprendizado. Dentre os três algoritmos, o SAC mostra-se constantemente o mais estável, não apenas resolvendo o problema convencional como também sendo capaz de controlar de maneira adequada o problema de inércias variáveis. As redes obtidas são relativamente pequenas, o que indica que a implementação nos computadores de bordo é possível. Embora a questão fundamental da estabilidade do RL seja identificada como o maior problema existente para seu uso prático, os resultados indicam que a combinação de RL com ideias do controle convencional pode ser uma forma atraente para a resolução de problemas desafiadores na área espacial. ABSTRACT: The present work applies the Reinforcement Learning (RL) paradigm, a subfield of Machine Learning, to the attitude control problem for a satellite. In this formulation, an agents interacts with an environment, changing its state by selecting actions and receiving a reward - a scalar sign - so as to punish or reward its decisions. By a trial-and-error approach, the agent should learn an optimum way to behave. Driven by novel ideas, recent years have witnessed major developments in the field, leading to a variety of algorithms capable of tackling numerous challenging environments. At its core, these algorithms employ artificial neural networks (ANNs) to represent their functions of interest. This way, a possibility arises of applying RL techniques to traditional control problems, which includes attitude control. Mastering this technique would be of practical importance, as it would allow the automatic tuning of controller parameters, control in situations far from the nominal scenario and it could enable more challenging missions to be carried out, requiring less human interference. Three modern RL algorithms were selected: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed TD3) and SAC (Soft Actor-Critic). Their implementation as well as the satellite attitude dynamics were written in the Julia language. A particular scenario, in which the satellites moment of inertia matrix is variable, is also simulated. The proportional-derivative (PD) control onboard the Amazonia-1 satellite is used as a reference, allowing a comparison with the RL solutions. Practical considerations concerning the desired network structure in terms of activation function, topology and number of hidden layers are discussed. These points are important as they help by providing previous knowledge to the agent and thus speed up the learning process. Among the three algorithms, SAC constantly proves itself to be the most stable, not only solving the conventional problem but also being able to adequately control the problem of variable inertia. The employed networks are relatively small, which indicates their implementation on real computers used in space missions is feasible. Even though the fundamental issue of stability is identified as the biggest hurdle to real applications, the results indicate that the combination of RL with conventional control ideas may be a promising approach to solve challenging problems in the space sector. |
Área | ETES |
Conteúdo da Pasta doc | acessar |
Conteúdo da Pasta source | originais/@4primeirasPaginas (1).pdf | 08/05/2024 11:00 | 173.6 KiB | originais/Defesa.pdf | 27/03/2024 11:51 | 120.9 KiB | originais/publicacao.pdf | 26/03/2024 09:46 | 10.4 MiB | |
Conteúdo da Pasta agreement | |
|
4. Condições de acesso e uso | |
URL dos dados | http://urlib.net/ibi/8JMKD3MGP3W34T/4AQ4DCB |
URL dos dados zipados | http://urlib.net/zip/8JMKD3MGP3W34T/4AQ4DCB |
Idioma | pt |
Arquivo Alvo | publicacao.pdf |
Grupo de Usuários | gabriel.santana@inpe.br pubtc@inpe.br simone |
Visibilidade | shown |
Licença de Direitos Autorais | urlib.net/www/2012/11.12.15.10 |
Detentor dos Direitos | originalauthor yes |
Permissão de Leitura | allow from all |
Permissão de Atualização | não transferida |
|
5. Fontes relacionadas | |
Repositório Espelho | urlib.net/www/2021/06.04.03.40.25 |
Acervo Hospedeiro | urlib.net/www/2021/06.04.03.40 |
|
6. Notas | |
Campos Vazios | academicdepartment affiliation archivingpolicy archivist callnumber contenttype copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format group isbn issn label lineage mark nextedition nexthigherunit notes number orcid parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype |
|